Вернуться на предыдущую страницу

Распознавание английской фразы на основе алгоритма непрерывного распознавания речи и ограничений дерева слов

Авторы: Haifan Du, Haiwen Duan.

Автор перевода: Иванченко Ю.С.

Источник: Journal publishers "Hindawi". May 25, 2021.

Аннотация

В этой статье объединены результаты отечественных и международных исследований для анализа и изучения разницы между особенностями характеристик английской фразеологической речи и шума для увеличения кратковременной энергии, которая используется для повышения пороговой чувствительности; Добавление шума к набору данных о несоответствии используется для повышения устойчивости распознавания. Алгоритм обратного распространения ошибки улучшен, чтобы ограничить диапазон изменения веса, избежать явления колебаний и сократить время обучения. В реальной системе распознавания звуков английских фраз есть такие проблемы, как массивные обучающие данные и низкая эффективность обучения, вызванные сверхбольшими параметрами модели сверточной нейронной сети. Для решения этих проблем алгоритм «NWBP» основан на явлении колебаний, которое имеет тенденцию возникать при поиске минимального значения ошибки в позднем периоде обучения параметров сети с использованием алгоритма «K-MEANS» для получения начальных узлов, которые приближаются к минимальному количеству ошибок и использование правила граничных значений уменьшающие диапазон изменения размера, уменьшая явление колебаний, так что сетевая ошибка сводится к нулю, что повысит эффективность обучения. Благодаря имитационным экспериментам алгоритм «NWBP» улучшает степень подгонки и скорость сходимости при обучении сложных сверточных нейронных сетей по сравнению с другими алгоритмами, сокращает избыточные вычисления и в определенной степени сокращает время обучения, а алгоритм имеет преимущество ускорении конвергенции сети по сравнению с простыми сетями. Представлено ограничение дерева слов и его эффективная структура хранения, что повышает эффективность хранения ограничения дерева слов и эффективность поиска при поиске с распознаванием английских фраз.


Введение

Голос, звук языка, является важным средством человеческого общения. Традиционный ввод с клавиатуры вряд ли может удовлетворить потребности современных потребителей в портативности и эффективности электронных продуктов. Заставить машины понимать человеческий язык и реализовать эффективную и удобную связь между людьми и машинами сегодня стало горячей темой исследований. Исследование распознавания речи должно включать многие профессиональные дисциплины, включая акустику, цифровую обработку сигналов, распознавание образов, теорию вероятностей и теорию информации, речевой механизм и слуховой механизм, искусственный интеллект и многие другие дисциплины [1]. Распознавание речи можно сравнить со «слуховой системой машины», и идеальный результат распознавания состоит в том, что машина понимает, что говорят люди. Во множестве сложных сред правильное получение содержания речевой информации с помощью различных алгоритмов обработки речи и выполнение различных намерений говорящего на основе семантической информации являются важными средствами для достижения естественного взаимодействия между людьми и машинами [2]. Распознавание речи постепенно интегрируется в жизнь людей с его широкими социальными преимуществами и перспективами применения, такими как смартфоны, дистанционное управление бытовой техникой, интеллектуальные роботы, голосовая навигация и другие продукты [3]. В распознавании речи по-прежнему существует множество трудностей, которые необходимо решить, например, низкая надежность параметров функции и недостаточная точность выделения цикла основного тона.

Хотя технология распознавания речи достигла значительного прогресса, производительность технологии распознавания речи в неидеальной среде требует дальнейшего улучшения. Сложность распознавания речи в неидеальной среде заключается в том, что на речевой сигнал, собранный в этой ситуации, слишком сильно влияют факторы пертурбации, среди которых факторы пертурбации сосредоточены в следующих аспектах: (1) индивидуальные различия в речевом сигнале , включая индивидуальные характеристики, такие как акцент говорящего, эмоции, скорость речи, коартикуляция и пауза[4]. (2) Неопределенность, вызванная оборудованием для сбора речевых сигналов, из-за разницы в производительности оборудования для сбора, даже сигнал сбора речи одного и того же человека в одной и той же среде может иметь большие различия[5]. (3) Фоновый шум в неидеальной среде неконтролируемый, это может быть хохот, свист или успокаивающая музыка. Распределение шума является случайным, и его трудно отделить от речевого сигнала. Исследования распознавания фраз играют ключевую и вспомогательную роль во многих областях, например, семантический анализ, семантическое устранение неоднозначности, автоматический дайджест, поиск информации и извлечение информации; и он занимает незаменимую позицию в многоязычных системах поиска информации, системах диалога между человеком и компьютером, устранении неоднозначности слов, составлении и обновлении лексики, автоматической классификации текста и поисковых системах [6].

Целью данной статьи является изучение аспектов повышения точности обнаружения конечных точек, уменьшения изменчивости набора данных, улучшения алгоритмов обучения акустических моделей, а также разработки и реализации прототипов систем в процессе распознавания речи для повышения эффективности и точности распознавания речи. Первый раздел знакомит с исследовательской ценностью распознавания речи, разъясняет необходимость повышения точности и эффективности распознавания речи, фокусируется на текущем состоянии отечественных и международных исследований по повышению точности распознавания речи и, наконец, дает описание основных исследований, приведённых в этой статье. Следующий раздел знакомит с общей акустической моделью и проблемами, возникающими в процессе обучения параметров, затем описывает соответствующие технологии, необходимые на этапе предварительной обработки речевого сигнала, и проводит углубленное исследование принципа работы сверточной нейронной сети и параметров. алгоритм обучения, чтобы подготовить теоретический фундамент для последующей исследовательской работы. В разделе 3 предлагается алгоритм обратного распространения ошибки с уменьшенным диапазоном весов (NWBP), и в процессе обучения также используется алгоритм обратного распространения ошибки, в то время как метод поиска, основанный на ограничении дерева слов для распознавания речи английской фразы, изучается для повышения эффективности поиска алгоритма распознавания речи. Наконец, прототип системы распознавания речи реализован посредством построения структуры системы, проектирования основного модуля и интеграции модулей. В разделе 4 проверяется применимость системы к конкретным средам и эффективность алгоритма путем тестирования точности речевых данных в различных средах. Раздел 5 суммирует содержание исследования и результаты этого документа и предлагает следующую работу, которую необходимо завершить, и новые направления исследований из-за трудностей и недостатков, обнаруженных в процессе исследования. (1) производительность нашего алгоритма распознавания очень стабильна, (2) точность наших результатов улучшена примерно на 10,5% по сравнению с другими исследованиями, и (3) наши исследования могут быть применены к реальным приложениям.

Связанные работы

Предложение модели многослойного персептрона знаменует начало эры машинного обучения. Технология распознавания речи может быть изучена и разработана более глубоко, а внедрение искусственных нейронных сетей и комбинации моделей вывели технологию распознавания речи на новый уровень. Чжоу и др. взяли за объект английские глагольные фразы и реализовали распознавание глагольных фраз с помощью лексической аннотации, распознавания именованных сущностей и ограничений правил. Этот процесс был относительно утомителен [7]. Zerari и др. идентифицировали помеченные основные словосочетания существительных, рассматривая внутренние структурные особенности фраз, используя соответствующие лексические последовательности в качестве правил, а затем выполняя отсечение лексических последовательностей для получения наборов правил. Однако точность распознавания была недостаточной требовала повышения данного уровня [8]. Cui и др. отобрали соответствующие образцы из многих магазинов и использовали некоторые традиционные методы для извлечения признаков спектральных и рифмовых типов для нескольких выбранных типов [9]. Применяя их к структурам рекуррентной нейронной сети (RNN) и полностью сфокусированной нейронной сети с временной задержкой (FFTDNN), чтобы оценить их эффективность в распознавании настроения, диалекта, говорящего и гендерных различий в диалектных ассамских языках, было обнаружено, что машинное обучение (машинное обучение) Learning, ML) метод извлечения предложений вместе с RNN с использованием модели составных признаков в качестве классификатора превзошел другие методы с точки зрения скорости распознавания и вычислительной эффективности в нескольких условиях фонового шума [10]. Шен и др. предложил эффективный метод выбора речевых данных для повышения скорости распознавания данных. Этот метод выбирает речевые данные, которые приемлемы для приложений распознавания речи, и сокращает время, необходимое для вычисления оценок достоверности с помощью традиционных методов измерения достоверности [11]. Этот метод основан на значениях акустического правдоподобия и позволяет быстро выбирать речевые данные с высокой априорной достоверностью. Эксперименты показывают, что предлагаемая методика оценки достоверности более чем в 50 раз быстрее, чем традиционные меры, обеспечивая при этом эквивалентную производительность выбора данных для распознавания речи и вербального поиска документов [12].

Объекты фраз, изучаемые в этой статье, представляют собой фиксированные фразы или квази-фиксированные фразы, которые обычно характеризуются стабильной структурой и высокой частотой совпадения, распознаются и семантически анализируются при синтаксическом анализе. Алгоритм применяется к речевой системе модели распознавания слитной речи, и превосходство алгоритма сравнивается и анализируется посредством обучения и распознавания параметров функции. Наконец, программная платформа MATLAB используется для разработки набора пользовательского интерфейса (GUI) системы распознавания речи на основе модели глубокого обучения, чтобы показать среду предварительной обработки распознавания речи, улучшенные параметры извлечения признаков, обучение выборки речи и распознавание речи в виде рабочего интерфейса, удобного для последующего анализа и обработки данных.

Вывод

Целью данной статьи является изучение таких аспектов процесса распознавания речи, как повышение точности обнаружения конечных точек, снижение вариабельности наборов данных, улучшение алгоритма обучения акустической модели, а также разработка и внедрение системы-прототипа для повышения эффективности и точность распознавания речи. Поскольку распознавание речи в основном применяется в области охраны здоровья матери и ребенка, что позволяет говорить с учетом специфики сцены, между обучающим набором и речью в реальной прикладной среде будут различия в уровне шума. Чтобы уменьшить разницу между ними с точки зрения фонового шума, фоновый шум со спецификой среды добавляется к обучающему набору в соответствии с обратным углом спектрального вычитания, а содержащая шум и свободная от шума речь смешивается после обучающей обработки, который удваивает корпус при повышении устойчивости модели распознавания речи в конкретных средах, и повышается надежность модели для распознавания шумной речи. Благодаря имитационным экспериментам сходимость алгоритма NWBP в процессе обучения сложных весов сверточной нейронной сети улучшена по сравнению с улучшенным алгоритмом обратного распространения с переменной скоростью обучения, который сокращает избыточные вычисления и в определенной степени сокращает время обучения, а алгоритм имеет преимущество ускорения конвергенции сети по сравнению с простой сетью. В этой статье мы предлагаем метод обратного распространения ошибки, который включает переменную скорость обучения и сокращает диапазон распределения минимумов, позволяя сложным сетям лучше аппроксимировать минимум ошибок, но нам нужно изучить, как оптимизировать алгоритм, чтобы улучшить использование пространство для хранения для размещения большого количества промежуточных данных во время эксперимента и как получить оптимальные начальные точки в процессе получения оптимальных начальных точек путем увеличения количества узлов, разумной регулировки расстояния ошибки и веса воздействия узлов с чередующимися ошибками на начальных точках.

References

  1. L. Dong, Q. Guo, and W. Wu, “Speech corpora subset selection based on time-continuous utterances features,” Journal of Combinatorial Optimization, vol. 37, no. 4, pp. 1237–1248, 2019.View at: Publisher Site | Google Scholar
  2. S. Bhatt, A. Jain, and A. Dev, “Syllable based Hindi speech recognition,” Journal of Information and Optimization Sciences, vol. 41, no. 6, pp. 1333–1351, 2020.View at: Publisher Site | Google Scholar
  3. Y.-H. Tu, J. Du, and C.-H. Lee, “Speech enhancement based on teacher-student deep learning using improved speech presence probability for noise-robust speech recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 2080–2091, 2019.View at: Publisher Site | Google Scholar
  4. R. Masumura, T. Asami, T. Oba, S. Sakauchi, and A. Ito, “Latent words recurrent neural network language models for automatic speech recognition,” IEICE Transactions on Information and Systems, vol. E102.D, no. 12, pp. 2557–2567, 2019.View at: Publisher Site | Google Scholar
  5. M. Walid, B. Souha, and C. Adnen, “Speech recognition system based on discrete wave atoms transform partial noisy environment,” International Journal of Advanced Computer Science and Applications, vol. 10, no. 5, pp. 466–472, 2019.View at: Publisher Site | Google Scholar
  6. S. Singhal, V. Passricha, P. Sharma, and R. K. Aggarwal, “Multi-level region-of-interest CNNs for end to end speech recognition,” Journal of Ambient Intelligence and Humanized Computing, vol. 10, no. 11, pp. 4615–4624, 2019.View at: Publisher Site | Google Scholar
  7. L. Zhou, S. Lu, Q. Zhong, Y. Chen, Y. Tang, and Y. Zhou, “Binaural speech separation algorithm based on long and short time memory networks,” Computers, Materials & Continua, vol. 63, no. 3, pp. 1373–1386, 2020.View at: Publisher Site | Google Scholar
  8. N. Zerari, S. Abdelhamid, H. Bouzgou, and C. Raymond, “Bidirectional deep architecture for Arabic speech recognition,” Open Computer Science, vol. 9, no. 1, pp. 92–102, 2019.View at: Publisher Site | Google Scholar
  9. X. Cui, W. Zhang, U. Finkler, G. Saon, M. Picheny, and D. Kung, “Distributed training of deep neural network acoustic models for automatic speech recognition: a comparison of current training strategies,” IEEE Signal Processing Magazine, vol. 37, no. 3, pp. 39–49, 2020.View at: Publisher Site | Google Scholar
  10. N. A. Abu Bakar, R. Ahmad, and A. Sarlan, “Reading fluency evaluation for malaysian primary school children using feature extraction techniques in speech recognition,” Psychology and Education Journal, vol. 57, no. 9, pp. 478–491, 2020.View at: Google Scholar
  11. Y. Shen, Y. Mai, X. Shen, W. Ding, and M. Guo, “Jointly part-of-speech tagging and semantic role labeling using auxiliary deep neural network model,” Computers, Materials & Continua, vol. 65, no. 1, pp. 529–541, 2020.View at: Publisher Site | Google Scholar
  12. P. Mittal and N. Singh, “Development and analysis of Punjabi ASR system for mobile phones under different acoustic models,” International Journal of Speech Technology, vol. 22, no. 1, pp. 219–230, 2019.View at: Publisher Site | Google Scholar